76 research outputs found

    Improving the role of language model in statistical machine translation (Indonesian-Javanese)

    Get PDF
    The statistical machine translation (SMT) is widely used by researchers and practitioners in recent years. SMT works with quality that is determined by several important factors, two of which are language and translation model. Research on improving the translation model has been done quite a lot, but the problem of optimizing the language model for use on machine translators has not received much attention. On translator machines, language models usually use trigram models as standard. In this paper, we conducted experiments with four strategies to analyze the role of the language model used in the Indonesian-Javanese translation machine and show improvement compared to the baseline system with the standard language model. The results of this research indicate that the use of 3-gram language models is highly recommended in SMT

    Peningkatan Akurasi Mesin Penerjemah Bahasa Inggris - Indonesia dengan Memaksimalkan Kualitas dan Kuantitas Korpus Paralel

    Get PDF
    Korpus paralel memiliki peran yang sangat penting dalam mesin penerjemah statistik (MPS). Korpus paralel yang diperoleh berbagai sumber biasanya memiliki kualitas yang kurang baik, sedangkan kuantitas korpus paralel merupakan tuntutan utama bagi hasil penerjemahan yang baik. Penelitian ini bertujuan untuk mengetahui efek ukuran dan kualitas korpus paralel di MPS. Penelitian ini menggunakan metode bilingual evaluation understudy (BLEU) untuk mengklasifikasikan pasangan kalimat paralel sebagai kalimat berkualitas tinggi atau buruk. Metode ini diterapkan ke korpus paralel yang berisi 1,5 M pasangan kalimat Inggris-Indonesia paralel dan memperoleh 900K pasangan kalimat paralel berkualitas tinggi. Beberapa sistem MPS dengan berbagai ukuran korpus paralel mentah dan korpus berkualitas tinggi yang difilter dilatih dengan MOSES dan dievaluasi kinerjanya. Hasil percobaan yang dilakukan menunjukkan bahwa ukuran korpus paralel merupakan  faktor utama dalam kinerja terjemahan. Selain itu, kinerja terjemahan yang  lebih baik dapat dicapai dengan korpus berkualitas tinggi yang lebih kecil menggunakan metode filter berkualitas. Hasil eksperimen pada MPS bahasa Inggris-Indonesia menunjukkan bahwa dengan menggunakan 60% kalimat yang kualitas terjemahannya baik, kualitas terjemahan dapat meningkat sebesar 7,31%. AbstractThe parallel corpus has a very important role in the statistical machine translator (SMT) system. The parallel corpus obtained by various sources usually has poor quality, while the quantity of parallel corpus is the main demand for good translation results. This study aims to determine the effect of the size and quality of parallel corpus at SMT. This study uses the bilingual evaluation understudy (BLEU) method to classify pairs of parallel sentences as high-quality or bad sentences. This method is applied to a parallel corpus containing 1.5 M parallel English-Indonesian sentence pairs and obtaining 900K pairs of high-quality parallel sentences. Some SMT systems with various sizes of raw parallel bodies and high-quality corpus filtered are trained with MOSES and evaluated for performance. The experimental results show that the size of the parallel corpus is a major factor in translation performance. In addition, better translation performance can be achieved with a smaller high-quality corpus using a quality filter method.The experimental results in the English-Indonesian SMT show that by using 60% of sentences whose translation quality is good, the quality of the translation can increase by 7.31%

    Peningkatan Akurasi Penerjemah Bahasa Daerah dengan Optimasi Korpus Paralel

    Get PDF
    Statistical Machine Translation (SMT) quality is influenced by several factors. The most fundamental factor is quantity of corpus used as base material for building translational and language model in SMT. Quantity of corpus is a major factor in ensuring quality of the translation, but quality of corpus can not be ignored either. Checking the source and translation sentences manually in a parallel corpus of course will be very difficult and require a lot of resources. This paper reports the experimental results using a quality improvement strategy of Indonesian-Malay and Indonesia-Javanesse corpus without having to examine and correct the sentences that exist on the corpus. The filter used is the minimum value of each sentence tested by the Bilingual Evaluation Understudy (BLEU) method. Experimental results show that parallel corpus optimization can improve the level of accuracy of Indonesian-Malay translation by 6.97%and Indonesian-Javanesse translation by 5.55%

    Mesin Penerjemah Situs Berita Online Bahasa Indonesia ke Bahasa Melayu Pontianak

    Get PDF
    Abstract– Paper ini membahas salah satu potensi dari aplikasi mesin penerjemah, yaitu penerjemahan halaman situs.Halaman situs berbahasa Indonesia, diterjemahkan secara otomatis ke dalam bahasa Melayu Pontianak sehingga teks yang ada pada halaman sumber berubah menjadi teks dalam bahasa target. Cara kerja sistem ini adalah dengan  mengambil seluruh halaman HTML dari sumber berbahasa Indonesia, selanjutnya memisahkan teks-teks yang berupa kalimat terhadap kode-kode HTML. Kalimat yang sudah dipisahkan selanjutnya diterjemahkan ke bahasa target (Melayu Pontianak). Kalimat hasil terjemahan ditampilkan pada halaman target dengan mengganti kalimat-kalimat pasangan terjemahannya. Sistem ini mempergunakan mesin penerjemah berbasis statistik (MPS). Persoalan yang paling mendasar pada hasil kualitas terjemahan sistem ini adalah masih kecilnya kuantitas corpus. Sedangkan corpus merupakan merupakan data utama untuk membangun model - model yang digunakan pada MPS.   Keywords- Penerjemahan halaman situs, mesin penerjemah statistik, bahasa Indonesia - Melayu Pontianak

    Perbandingan Nilai Akurasi Terhadap Penggunaan Part of Speech Set pada Mesin Penerjemah Statistik

    Get PDF
    Part of speech pada mesin penerjemah statistik sebagai faktor tambahan sudah beberapa dilakukan terhadap bahasa daerah di Indonesia. Part of speech (PoS) untuk bahasa Indonesia pula sudah banyak dikembangkan oleh beberapa peneliti sebelumnya. Penelitian ini menganalisa pengaruh penggunaan dua tagset PoS berbeda terhadap hasil terjemahan mesin penerjemah. Tagset PoS yang digunakan adalah milik Wicaksono dan Dinakaramani. Mesin penerjemah dibangun dengan korpus paralel Bahasa Indonesia dan Bahasa Melayu Putussibau yang sudah ditandai dengan tagset PoS. Proses pengujian menggunakan 2 cara yaitu pengujian otomatis menggunakan tools BLEU dan pengujian manual yang dinilai oleh penutur bahasa terhadap hasil terjemahan mesin penerjemah. Hasil pengujian otomatis dengan skenario kedua menunjukkan penerjemahan dengan menambahkan faktor PoS dapat meningkatkan akurasi hasil terjemahan, namun dapat pula menurunkan hasil terjemahan yang dapat disebabkan oleh kuantitas atau kualitas dari korpus traning. Selain itu menunjukkan pula persentase peningkatan akurasi yang signifikan pada korpus training 5500 terjadi pada Mesin2 (tagset35) dengan peningkatan 14,73%, kemudian Mesin1 (tagset23) 11,31%, dan disusul oleh Mesin3 (notagset) 8,76%. Hasil pengujian dengan skenario pertama dan uji manual mendapatkan bahwa Mesin1 memiliki akurasi terjemahan lebih baik dibandingkan Mesin2. Dengan uji BLEU Mesin1 memiliki akurasi terjemahan (42,39) dan Mesin2 dengan akurasi terjemahan (41,61). Sedangkan untuk uji manual oleh Sigit Heru nilai akurasi Mesin1 (87,47%) dan Mesin2 (83,29%), kemudian oleh Titin Rahayu nilai akurasi Mesin1 (90,91%) dan Mesin2 (86,57%)

    Sentiment Analysis Objek Wisata Kalimantan Barat Pada Google Maps Menggunakan Metode Naive Bayes

    Get PDF
    Kalimantan Barat merupakan salah satu provinsi di Indonesia yang pariwisatanya berpotensi untuk dikembangkan. Oleh karena itu, feedback dari wisatawan  dibutuhkan untuk mengambil tindakan terkait pengembangan kualitas objek wisata Kalimantan Barat agar lebih optimal. Penelitian ini bertujuan untuk membangun sistem yang dapat melakukan sentiment analysis terhadap objek wisata di Kalimantan Barat berdasarkan data ulasan yang ada di Google Maps. Metodologi yang digunakan dalam penelitian ini adalah kerangka kerja IS Research Alan Hevner. Dalam melakukan riset sentiment analysis objek wisata Kalimantan Barat, metode yang digunakan untuk klasifikasi adalah Naïve Bayes. Sebelum melakukan klasifikasi, dilakukan tahap pre-processing yang terdiri dari casefolding, tokenizing, filtering, stemming, dan tahap pembobotan kata menggunakan TF-IDF. Berdasarkan penelitian yang  dilakukan, disimpulkan bahwa sistem dapat mengklasifikasikan kelas sentimen ulasan objek wisata yang terdapat pada Google Maps menggunakan metode Naive Bayes dengan nilai akurasi yang bervariasi dari setiap tempat wisata. Nilai akurasi tertinggi adalah 0,76 sedangkan terendah adalah 0,38. Hasil sentimen analisis yang dilakukan pada objek wisata Kalimantan Barat masuk dalam kategori yang positif. Hal ini berdasarkan performa metode Naive Bayes yang menunjukan bahwa nilai rata-rata f1-score kelas positif adalah 0,73 lebih tinggi dibanding kelas netral 0,53 dan negatif 0.1

    Analisis Akurasi Algoritma Extended Word Similarity Based Clustering (EWSB) pada Mesin Penerjemah Bahasa Indonesia-Minang

    Get PDF
    Extended Word Similarity Based (EWSB) Clustering adalah algoritma pengklasteran kata berdasarkan nilai kemiripan kata yang didapat dari hasil komputasi terhadap sebuah korpus. Salah satu manfaat dari hasil pengklasteran dengan algoritma ini adalah untuk meningkatkan kualitas output dari sebuah mesin penerjemah berbasis statistik (MPS). Dari hasil penelitian sebelumnya, hasil pengklasteran dengan algoritma EWSB terbukti memperbaiki akurasi mesin penerjemah bahasa Inggris sebagai Bahasa asal ke bahasa Indonesia sebagai Bahasa target, dimana algoritma tersebut diaplikasikan pada bahasa Indonesia sebagai bahasa target. Paper ini mendiskusikan hasil penelitian penggunaan EWSB pada MPS dari bahasa Indonesia ke bahasa Minang, dimana algoritma tersebut diaplikasikan pada bahasa Minang sebagai bahasa target. Penelitian yang dilakukan memperoleh hasil bahwa algoritma EWSB cukup efektif jika digunakan pada bahasa Minang sebagai bahasa target. Hasil penelitian ini menunjukkan bahwa penggunaan algoritma EWSB dapat meningkatkan tingkat akurasi terjemahan sebesar 6,36%

    Komparasi Algoritma Nonparametrik untuk Klasifikasi Citra Wajah Berdasarkan Suku di Indonesia

    Get PDF
    Klasifikasi merupakan metode data mining yang berfungsi untuk mengatur dan mengkategorikan data pada kelas yang berbeda-beda. Penelitian ini bertujuan untuk membandingkan dan menentukan algoritma nonparametrik terbaik dalam pengklasifikasian citra wajah. Dalam proses pengklasifikasian, penelitian ini menggunakan algoritma klasifikasi nonparametrik yaitu k-Nearest Neighbor (kNN), Support Vector Machine (SVM), Decision Tree, dan AdaBoost Untuk mengklasifikasikan citra wajah penduduk Indonesia yang berasal dari suku Batak, Dayak, Jawa, Melayu, dan Tionghoa. Penelitian ini menggunakan Orange Data Mining Tool sebagai alat bantu untuk melakukan proses data mining. Dari hasil pengklasifikasian dengan menerapkan algoritma k-Nearest Neigbor, Support Vector Machine, Decision Tree, dan AdaBoost, SVM memberikan nilai akurasi yang lebih baik dibanding algoritma lainnya. Rata-rata nilai precision keempat algoritma tersebut berturut-turut adalah Support Vector Machine 37.5%, diikuti oleh algoritma k-Nearest Neighbor 31.55%, AdaBoost 30.25%, dan untuk Decision Tree 29.75%

    RANCANG BANGUN SISTEM INFORMASI MANAJEMEN PERPUSTAKAAN INFORMATIKA UNIVERSITAS TANJUNGPURA BERBASIS WEB

    Get PDF
    Perpustakaan adalah salah satu pusat informasi yangdapat dimanfaatkan sebagai sumber ilmu pengetahuan, penelitiandari berbagai disiplin ilmu. Pengolahan data pada perpustakaanharus dilakukan secara terstruktur agar administrasiperpustakaan dapat berjalan dengan baik. Sebuah sisteminformasi pengolahan data perpustakaan sangat diperlukan agarpenyampaian informasi dapat tersebar dengan baik. Pengolahandata pada Perpustakaan Prodi Informatika Fakultas TeknikUniversitas Tanjungpura masih belum terkomputerisasi sehinggasulit untuk melakukan pengolahan dan pencarian dataperpustakaan. Penelitian ini bertujuan untuk mengatasi masalahpengolahan data pada perpustakaan Prodi Informatika FakultasTeknik Universitas Tanjungpura. Sistem ini dibangun berbasiswebsite dan perancangan sistem mencakup perancanganarsitektur sistem, perancangan diagram alir sistem perancanganData Flow Diagram, perancangan Database dan perancanganantarmuka sistem. Pengujian dilakukan dengan dua cara.Pertama dengan metode Black Box untuk pengujian sistem dankuesioner untuk pengujian penggunaan aplikasi. Berdasarkanhasil pengujian Black Box, sistem dapat berjalan dengan baik.Pengujian kuesioner penggunaan aplikasi dilakukan terhadap 30responden dan dihitung menggunakan metode mencari intervalnilai persentase Likert. Hasil perhitungan pengujian kuesionerpengguna aplikasi adalah 88,8%. Berdasarkan hasil pengujiankuesioner pengguna aplikasi, maka sistem informasi yangdibangun dapat mengatasi masalah dalam pengelolaan dataPerpustakaan Prodi Informatika Fakultas Teknik UniversitasTanjungpura

    TUNING FOR QUALITY UNTUK UJI AKURASI MESIN PENERJEMAH STATISTIK (MPS) BAHASA INDONESIA - BAHASA DAYAK KANAYATN

    Get PDF
    Bahasa merupakan alat komunikasi yang penting bagi manusia, karena dengan menggunakan bahasa kita dapat mengetahui dan mengetahui informasi yang dibutuhkan, dengan bahasa juga manusia dapat mengekspresikan diri, menyampaikan kritik dan pendapat, pikiran serta keinginannya. Namun tidak semua orang memiliki bahasa yang sama, sehingga hal ini dapat menghalangi dalam melakukan pertukaran informasi. Oleh karena itu, saat ini salah satu teknologi yang sedang dikembangkan yaitu mesin penerjemah untuk mengatasi masalah penerjemahan bahasa. Namun kualitas dari hasil terjemahan yang dihasilkan masih mengandung keterbatasan. Hasil terjemahan yang optimal dapat diperoleh dengan menggunakan konsep penerjemahan statistik. Mesin Penerjemah Statistik (Statistical Machine Translation) merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan yang dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus paralel. Tujuan yang ingin dicapai dalam penelitian ini adalah melakukan proses tuning pada mesin penerjemah statistik bahasa Indonesia ke bahasa Dayak Kanayatn untuk mengetahui pengaruh proses tuning terhadap hasil terjemahan. Pengujian dilakukan dengan membandingkan skor akurasi hasil terjemahan sebelum dan setelah proses tuning. Penelitian menggunakan korpus paralel sebanyak 3667. Pengujian dilakukan secara otomatis menggunakan Bilingual Evaluation Understudy (BLEU). Hasil dari pengujian adalah terdapat peningkatan skor BLEU sebesar 3,04%. Berdasarkan hasil pengujian, tingkat akurasi terjemahan setelah proses tuning pada mesin penerjemah statistik bahasa Indonesia ke bahasa Dayak Kanayatn dengan mengubah bobot parameter-parameter phrase translation, language model, distortion dan word penalty dapat meningkatkan nilai akurasi hasil terjemahan
    • …
    corecore